最近的研究表明,使用两阶段监督框架可以生成描绘人类对脑电图 (EEG) 视觉刺激的感知的图像,即 EEG-视觉重建。然而,它们无法“重现”准确的视觉刺激,因为决定合成图像的是人类对图像的注释,而不是图像的数据。此外,合成图像通常会受到嘈杂的 EEG 编码和生成模型不稳定的训练的影响,从而难以识别。相反,我们提出了一个单阶段 EEG-视觉检索范式,其中两种模态的数据是相关的,而不是它们的注释,这使我们能够恢复 EEG 片段的准确视觉刺激。具体而言,我们通过优化对比自监督目标来最大化 EEG 编码和相关视觉刺激之间的相互信息,从而带来两个额外的好处。一是,它使EEG编码能够在训练期间处理超出可见类别的视觉类别,因为学习并不针对类别注释。此外,模型不再需要生成视觉刺激的每个细节,而是专注于跨模态对齐并在实例级别检索图像,确保可区分的模型输出。对最大的单一受试者EEG数据集进行了实证研究,该数据集测量由图像刺激引起的大脑活动。我们证明了所提出的方法完成了实例级EEG-视觉检索任务,即报告现有方法无法报告的精确视觉刺激。我们还研究了一系列EEG和视觉编码器结构的含义。此外,对于主要研究的语义级EEG-视觉分类任务,尽管没有使用类别注释,但所提出的方法优于最先进的监督EEG-视觉重建方法,特别是在开放类别识别能力方面。
主要关键词